UltraSketchLLM: Compresión de LLM a menos de 1 bit
Descubre UltraSketchLLM, un método que comprime LLMs a solo 0.5 bits por peso usando sketch, reduciendo la memoria GPU sin sacrificar rendimiento. ¡14.9x más rápido!
Descubre UltraSketchLLM, un método que comprime LLMs a solo 0.5 bits por peso usando sketch, reduciendo la memoria GPU sin sacrificar rendimiento. ¡14.9x más rápido!